import nltk
import jieba
import jieba.analyse


news=open('分词结果.txt',encoding='utf-8',errors='ignore').read()
text=nltk.text.Text(jieba.lcut(news))
# print(text.concordance("计算机"))
# print(text.vocab())



#使用自定义停用词集合（防止编码格式不正确，最好在pycharm中打开stop_words.txt
#添加停用词  ）
jieba.analyse.set_stop_words("stop_words.txt")
#获取新闻中排名前20的关键词
#基于TF-IDF算法抽取关键词
a=jieba.analyse.extract_tags(news,topK=20,withWeight=False,allowPOS=())
print(a)